距离、范数、内积和空间

范数

向量的范数可以简单形象的理解为向量的长度,或者向量到零点的距离,或者相应的两个点之间的距离。

定义

向量的范数是一个函数$||x||$ ,满足:

  1. 非负性$||x|| >= 0$
  2. 齐次性$||cx|| = |c| ||x||$
  3. 三角不等式$||x+y|| \leq ||x|| + ||y||$

简单可以看成到零点的距离,但是多了性质2。

常用的向量的范数

$L_1$ 范数: $||x||$ 为x向量各个元素绝对值之和
$L_2$ 范数: $||x||$ 为x向量各个元素平方和的 $1/2$ 次方,$L2$ 范数又称 $Euclidean$ 范数或者 $Frobenius$ 范数
$L_p$ 范数: $||x||$ 为x向量各个元素绝对值$p$次方和的 $1/p$ 次方
$L_∞$ 范数: $||x||$ 为x向量各个元素绝对值最大那个元素的绝对值

椭球向量范数: $||x||A = \sqrt{T(x)Ax}$ , $T(x)$ 代表 $x$ 的转置。定义矩阵 $C$ 为 $M$ 个模式向量的协方差矩阵, 设 $C^\prime$是其逆矩阵,则 $Mahalanobis$ 距离定义为

这是一个关于 $C^\prime$ 的椭球向量范数。

赋范空间

赋予范数集合称为:赋范空间。若在其再加上线性结构称为线性赋范空间
赋范空间加上完备性(就是符合条件的空间的每一个点都包含在这个空间内,没有缺损,任何符合你所定的条件或定理的空间都已经包含在内了,而且不超过极限),称作巴拿赫空间

距离

定义

设 $X$ 是一非空集合,任给一对这一集合的元素 $x, y$ ,都给定一个实数 $d(x,y)$ 与他们对应,并且满足:

  1. $d(x,y)\geq0;d(x,y)\Leftrightarrow x=y$
  2. $d(x,y)=d(y,x)$
  3. $d(x,y)\leq d(x,z)+d(z,y)$ 三角不等式

则称 $d(x,y)$ 是$x,y$ 之间的距离。

常用距离

欧式距离(对应 $L_2$ 范数):最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中。$n$ 维空间中两个点 $x_1(x_{11},x_{12},…,x_{1n})$ 与 $x_2(x_{21},x_{22},…,x_{2n})$ 间的欧氏距离:

也可以用表示成向量运算的形式:

曼哈顿距离:曼哈顿距离对应 $L_1$ 范数,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标 $(x_1, y_1)$ 的点 $P1$ 与坐标 $(x2, y2)$ 的点 $P2$ 的曼哈顿距离为:$|x_1-x_2|+|y_1-y_2|$,要注意的是,曼哈顿距离依赖座标系统的转度,而非系统在座标轴上的平移或映射。

切比雪夫距离:若二个向量或二个点 $x_1$ 和 $x_2$ ,其坐标分别为$(x_{11}, x_{12}, x_{13}, … , x_{1n})$ 和$(x_{21}, x_{22}, x_{23}, … , x_{2n})$ ,则二者的切比雪夫距离为:$d = max(|x1i - x2i|)$ ,i从1到n。对应 $L_∞$ 范数。

闵可夫斯基距离(Minkowski Distance),闵氏距离不是一种距离,而是一组距离的定义。对应 $L_p$ 范数,$p$ 为参数。

闵氏距离的定义:两个 $n$ 维变量(或者两个 $n$ 维空间点)$x_1(x_{11},x_{12},…,x_{1n})$ 与 $x_2(x_{21},x_{22},…,x_{2n})$ 间的闵可夫斯基距离定义为:

其中 $p$ 是一个变参数。
当 $p=1$ 时,就是曼哈顿距离,
当 $p=2$ 时,就是欧氏距离,
当 $p→∞$ 时,就是切比雪夫距离,
根据变参数的不同,闵氏距离可以表示一类的距离。

$Mahalanobis$ 距离:也称作马氏距离,用来度量一个样本点 $P$ 与数据分布为 $D$ 的集合的距离。

假设样本点为 $\vec{x}=(x_1,x_2,…,x_N)^T$ ,数据集分布的均值为 $\vec{\mu}=(\mu_1,\mu_2,…,\mu_N)^T$ ,协方差为 $\Sigma$ ,则这个样本与数据集合的马氏距离为:

在近邻分类法中,常采用欧式距离和马氏距离。

度量空间

赋予距离的集合称为:度量空间。若在其再加上线性结构称为线性度量空间

内积

赋范空间有向量的模长,即范数。但是还缺乏一个很重要的概念——两个向量的夹角,为克服这一概念,引入内积

定义

设 $(x,y) \in R$,且满足:

  1. 对称性
  2. 对第一变元( $x$ )的线性性( $x$ 可以提出一个 $\alpha$ ,范数就是 $y$ 是0)
  3. 正定性(大于等于0)

内积空间

在线性空间上定义内积,其空间称作内积空间
内积可在空间中建立欧几里得几何学。例如交角、垂直和投影等,故习惯上称作欧几里得空间
内积空间加上完备性(就是符合条件的空间的每一个点都包含在这个空间内,没有缺损,任何符合你所定的条件或定理的空间都已经包含在内了,而且不超过极限),称作希尔伯特空间

拓扑

欧几里得几何学需要内积,但连续的概念不需要内积,甚至不需要距离。用开集可以定义连续。

定义

设 $X$ 是任一集合 $\tau \subset 2^\tau$ ,若满足:

  1. $\tau$ 内任意个集合的并仍属于 $\tau$
  2. $\tau$ 内有限个集合的交仍属于 $\tau$
  3. $X$ 和空集仍属于 $\tau$

则称 $\tau$ 是 $X$ 上的一个拓扑

内积空间

$(X,\tau)$ 是拓扑空间(元素是 $X$ ,规则是 $\tau$ )。 拓扑空间是弱化了距离的空间

总结

  1. 范数可以定义距离:$d(x,y)=||x-y||$
  2. 距离不一定可以定义范数,例如 $||x||=d(0,x)$,但是 $||ax||=(0,ax) \not= |a|||x||$
  3. 内积可以定义范数:$||x||^2=(x,x)$
  4. 内涵由少到多,范围越来越小:拓扑 距离 范数 内积
  5. 内涵由少到多按空间排序:拓扑空间 度量空间 赋范空间 内积空间
  6. 加上线性结构:拓扑线性结构 线性度量空间 线性赋范空间 内积空间(已经有线性结构)

在机器学习中的应用

$L_1$ 范数和$L_2$ 范数,用于机器学习的 $L_1$ 正则化、$L_2$ 正则化。对于线性回归模型,使用 $L_1$ 正则化的模型建叫做 $Lasso$ 回归,使用 $L_2$ 正则化的模型叫做 $Ridge$ 回归(岭回归)。

其作用是:

  • $L_1$ 正则化是指权值向量 $w$ 中各个元素的绝对值之和,可以产生稀疏权值矩阵(稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. ),即产生一个稀疏模型,可以用于特征选择;
  • $L_2$ 正则化是指权值向量w中各个元素的平方和然后再求平方根,可以防止模型过拟合(overfitting);一定程度上,$L_1$ 也可以防止过拟合。

至于为什么 $L_1$ 正则化能增加稀疏性,$L_2$ 正则化能防止过拟合,原理可查看参考资料。

0%